Etude comparative de stratégies de sélection de prédicteurs pour l'attribution d'auteur
نویسنده
چکیده
The authorship attribution problem can be viewed as a categorization problem. To determine the most effective features to discriminate between different writers (or categories), we have evaluated seven feature selection functions (e.g., pointwise mutual information, information gain, odds ratio, !, or correlation coefficient). We have also considered two selection functions proposed in the context of authorship attribution. To compare these approaches, we have selected a newspaper corpus (Glasgow Herald) composed of 5,408 articles written by twenty columnists. Using the KLD (Zhao & Zobel, 2007) and the Delta (Burrows, 2002) attribution scheme, we found that some simple selection functions tend to produce results comparable to more complex ones. MOTS-CLS : Slection de prdicteurs, attribution d'auteur, catgorisation de textes.
منابع مشابه
Etude physico-chimique et biologique d'un substrat de lyophilisation pour le virus peste équine
متن کامل
Journal de la Société Française de Statistique Comparison of sliced inverse regression approaches for underdetermined cases
Among methods to analyze high-dimensional data, the sliced inverse regression (SIR) is of particular interest for non-linear relations between the dependent variable and some indices of the covariate. When the dimension of the covariate is greater than the number of observations, classical versions of SIR cannot be applied. Various upgrades were then proposed to tackle this issue such as RSIR a...
متن کاملUtilisation des réseaux de neurones temporels pour le pronostic et la surveillance dynamique. Etude comparative de trois réseaux de neurones récurrents
RÉSUMÉ. L’objet de cet article consiste en un état de l’art des réseaux de neurones temporels et d’une comparaison de trois réseaux de neurones récurrents les plus représentatifs pour des applications de surveillance dynamique et de pronostic. Les critères de sélection de ces réseaux se situent à deux niveaux : temporel et architectural. Suite à l’application de ces critères, trois réseaux récu...
متن کامل